智能论文笔记

Pre-training Transformers on Indian Legal Text

Shounak Paul , Arpan Mandal , Pawan Goyal , Saptarshi Ghosh

分类：自然语言处理 | 人工智能 | 机器学习

2022-09-13

在法律文本中预先培训的基于变压器的预训练语言模型（PLM）的出现，法律领域中的自然语言处理受益匪浅。有经过欧洲和美国法律文本的PLM，最著名的是Legalbert。但是，随着印度法律文件的NLP申请量的迅速增加以及印度法律文本的区别特征，也有必要在印度法律文本上预先培训LMS。在这项工作中，我们在大量的印度法律文件中介绍了基于变压器的PLM。我们还将这些PLM应用于印度法律文件的几个基准法律NLP任务，即从事实，法院判决的语义细分和法院判决预测中的法律法规识别。我们的实验证明了这项工作中开发的印度特定PLM的实用性。

translated by 谷歌翻译

A Revenue Function for Comparison-Based Hierarchical Clustering

Aishik Mandal , Michaël Perrot , Debarghya Ghoshdastidar

分类：机器学习 | (统计)机器学习

2022-11-29

Comparison-based learning addresses the problem of learning when, instead of explicit features or pairwise similarities, one only has access to comparisons of the form: \emph{Object $A$ is more similar to $B$ than to $C$.} Recently, it has been shown that, in Hierarchical Clustering, single and complete linkage can be directly implemented using only such comparisons while several algorithms have been proposed to emulate the behaviour of average linkage. Hence, finding hierarchies (or dendrograms) using only comparisons is a well understood problem. However, evaluating their meaningfulness when no ground-truth nor explicit similarities are available remains an open question. In this paper, we bridge this gap by proposing a new revenue function that allows one to measure the goodness of dendrograms using only comparisons. We show that this function is closely related to Dasgupta's cost for hierarchical clustering that uses pairwise similarities. On the theoretical side, we use the proposed revenue function to resolve the open problem of whether one can approximately recover a latent hierarchy using few triplet comparisons. On the practical side, we present principled algorithms for comparison-based hierarchical clustering based on the maximisation of the revenue and we empirically compare them with existing methods.

translated by 谷歌翻译

Can Transformer Models Effectively Detect Software Aspects in StackOverflow Discussion?

Nibir Chandra Mandal , Tashreef Muhammad , G. M. Shahariar

分类：自然语言处理

2022-09-24

正在纳入数十种新工具和技术，以帮助开发人员，因为他们努力选择一种而不是其他人，这已成为震惊的根源。例如，开发人员至少有十个框架可用于开发Web应用程序，并在选择满足其需求的最佳框架时提出了一个难题。结果，开发人员正在不断搜索每个API，框架，工具等的所有好处和缺点。典型的方法之一是通过官方文档和讨论来检查所有功能。这种方法是耗时的，通常使难以确定哪些方面对特定开发人员最重要，以及特定方面对整个社区是否重要。在本文中，我们使用了从stackoverflow帖子中收集的基准API方面数据集（意见器），并观察了Transformer模型（Bert，Roberta，Distilbert和XLNet）在检测有关基线支持矢量的文本开发人员讨论中的软件方面时的表现机器（SVM）型号。通过广泛的实验，我们发现变压器模型改善了大多数方面的基线SVM的性能，即``performance''，``安全性''，``可用性''，``可用性''，``bug'''，``bug''' '和``其他''。但是，这些模型未能理解某些方面（例如，“社区”和“陶器”），其性能取决于方面。同样，与Distilbert这样的较小体系结构相比，XLNET等较大的体系结构在解释软件方面无效。

translated by 谷歌翻译

Learning to Answer Semantic Queries over Code

Surya Prakash Sahu , Madhurima Mandal , Shikhar Bharadwaj , Aditya Kanade , Petros Maniatis , Shirish Shevade

分类：自然语言处理

2022-09-17

在软件开发过程中，开发人员需要回答有关代码语义方面的查询。即使已经用神经方法进行了广泛的自然语言研究，但尚未探索使用神经网络对代码回答语义查询的问题。这主要是因为没有现有的数据集，具有提取性问答和答案对，涉及复杂概念和较长推理的代码。我们通过构建一个名为Codequeries的新的，策划的数据集并提出了一种关于代码的神经问题方法来弥合这一差距。我们基于最先进的预训练的代码模型，以预测答案和支持事实跨度。给定查询和代码，只有一些代码可能与回答查询有关。我们首先在理想的环境下进行实验，其中仅给出了模型的相关代码，并表明我们的模型做得很好。然后，我们在三个务实的考虑因素下进行实验：（1）扩展到大尺寸的代码，（2）从有限数量的示例中学习，（3）代码中对次要语法错误的鲁棒性。我们的结果表明，虽然神经模型可以抵御代码中的次要语法错误，代码的大小增加，与查询无关的代码的存在以及减少的培训示例数量限制了模型性能。我们正在释放数据和模型，以促进未来关于回答代码语义查询的问题的工作。

translated by 谷歌翻译

Efficient Subgraph Isomorphism using Graph Topology

Arpan Kusari , Wenbo Sun

分类： (统计)机器学习 | 人工智能 | 计算机视觉 | 机器学习

2022-09-15

亚图同构或子图匹配通常被认为是NP完整问题，在边缘权重采用真实值并受到测量噪声和可能的异常情况的实际应用中变得更加复杂。据我们所知，几乎所有子图匹配方法都利用节点标签执行节点节点匹配。在没有此类标签的情况下（在诸如图像匹配和映射匹配之类的应用中），这些子图匹配方法不起作用。我们提出了一种方法，可以在不精确的情况下识别子图和完整图之间的节点对应关系，而没有节点标签，分为两个步骤 - （a）从子图中提取最小的唯一拓扑保留子集，并在完整的图中找到其可行的匹配，（b）实现基于共识的算法来扩展匹配的节点设置，通过基于边界交换性配对唯一的路径。除了现有的子图匹配方法之外，所提出的方法显示出具有现实的亚线性计算效率，对随机测量噪声的鲁棒性和良好的统计特性。我们的方法也很容易适用于确切的匹配情况，而不会丧失通用性。为了证明该方法的有效性，分别对ERDOS-RENYI随机图和基于图像的仿射协变功能数据集进行了模拟和案例研究。

translated by 谷歌翻译

Socially Fair Reinforcement Learning

Debmalya Mandal , Jiarui Gan

分类：机器学习

2022-08-26

我们考虑了有多个具有不同奖励功能的利益相关者的情节强化学习问题。我们的目标是输出有关不同奖励功能在社会上公平的政策。先前的工作提出了不同的目标，即公平政策必须优化，包括最低福利和广义的基尼福利。我们首先对问题进行公理视图，并提出四个公理，任何这样的公平目标都必须满足。我们表明，纳什社会福利是一个独特的目标，它独特地满足了所有四个目标，而先前的目标无法满足所有四个公理。然后，我们考虑了基础模型，即马尔可夫决策过程未知的问题的学习版本。我们考虑到最大程度地降低对公平政策最大化的遗憾的问题，从而最大化三个不同的公平目标 - 最低限度的福利，广义基尼福利和纳什社会福利。基于乐观的计划，我们提出了一种通用的学习算法，并在三种不同的政策方面得出了遗憾。为了纳什社会福利的目的，我们还遗憾地得出了一个遗憾的遗憾，它以$ n $（代理的数量）成倍增长。最后，我们表明，为了最低限度福利的目的，对于较弱的遗憾概念，人们可以将遗憾提高到$ o（h）$。

translated by 谷歌翻译

HTML版本

Challenges in Applying Robotics to Retail Store Management

Vartika Sengar , Aditya Kapoor , Nijil George , Vighnesh Vatsal , Jayavardhana Gubbi , Balamuralidhar P , Arpan Pal

分类：机器人

2022-08-18

自动零售商店管理系统需要库存跟踪，商店监控和异常校正。最近对自动零售商店管理的尝试主要面临着对异常检测的看法，以及在执行异常校正方面的移动操作中引起的新挑战。对于该域中的可扩展解决方案是必要的。

translated by 谷歌翻译

Inverse Extended Kalman Filter -- Part II: Highly Non-Linear and Uncertain Systems

Himali Singh , Arpan Chattopadhyay , Kumar Vijay Mishra

分类： (统计)机器学习

2022-08-13

最近的反对抗性系统设计问题促使贝叶斯过滤器的反向发展。例如，最近已经制定了逆卡尔曼过滤器（I-KF），以估算对手的卡尔曼滤波器跟踪估计值，因此可以预测对手的未来步骤。本文和伴随论文（第一部分）的目的是通过提出反向扩展的卡尔曼过滤器（I-EKF）来解决非线性系统中的反过滤问题。在同伴论文（第一部分）中，我们发展了I-EKF（有或没有未知输入）和I-KF（未知输入）的理论。在本文中，我们为高度非线性模型开发了这一理论，该模型采用了二阶，高斯总和和抖动的前向EKF。特别是，我们使用有界的非线性方法来得出二阶EKF的理论稳定性保证。为了解决系统模型和正向滤波器对防御者完全知道的标准I-EKF的限制，我们建议复制核基于Hilbert Space基于空间的EKF，以根据其观察值学习未知的系统动力学，可以用作该动态反向过滤器推断对手的估计值。数值实验证明了使用递归的cram \'{e} r-rao下限作为基准测试的拟议过滤器的状态估计性能。

translated by 谷歌翻译

Active Sampling of Multiple Sources for Sequential Estimation

Arpan Mukherjee , Ali Tajer , Pin-Yu Chen , Payel Das

分类：机器学习

2022-08-10

考虑$ k $过程，每个过程都会生成一系列相同和独立的随机变量。这些过程的概率度量具有必须估计的随机参数。具体而言，它们共享一个参数$ \ theta $，所有概率度量共同。此外，每个过程$ i \ in \ {1，\ dots，k \} $都有一个私有参数$ \ alpha_i $。目的是设计一种主动采样算法，以顺序估算这些参数，以形成所有样品数量最少的共享和私有参数的可靠估计。该采样算法具有三个关键组件：（i）〜数据驱动的采样决策，随着时间的推移，该决策逐渐指定应选择哪些$ k $过程进行采样；（ii）〜停止该过程的时间，该过程指定何时累积数据足以形成可靠的估计并终止采样过程；（iii）〜所有共享和私人参数的估计器。由于已知的顺序估计在分析上是棘手的，因此本文采用\ emph {条件}估计成本函数，从而导致了顺序估计方法，该方法最近被证明可以进行拖延分析。划定了渐近的最佳决策规则（采样，停止和估计），并提供了数值实验，以将所提出的程序的疗效和质量与相关方法进行比较。

translated by 谷歌翻译

Effectiveness of Transformer Models on IoT Security Detection in StackOverflow Discussions

Nibir Chandra Mandal , G. M. Shahariar , Md. Tanvir Rouf Shawon

分类：机器学习

2022-07-29

物联网（IoT）是一个新兴的概念，它直接链接到连接到Internet的数十亿个物理项目或“事物”，并且都在收集和在设备和系统之间收集和交换信息。但是，IoT设备并未考虑到安全性，这可能会导致多设备系统中的安全漏洞。传统上，我们通过调查物联网开发商和专家来调查物联网问题。但是，该技术是不可扩展的，因为对所有物联网开发人员进行调查是不可行的。研究物联网问题的另一种方法是在主要在线开发论坛（如Stack Overflow（So））上查看IoT开发人员讨论。但是，发现与物联网问题相关的讨论是具有挑战性的，因为它们经常不属于与IoT相关的术语。在本文中，我们介绍了“ IoT安全数据集”，这是一个针对7147个示例的特定领域数据集，仅针对IoT安全讨论。由于没有自动化工具来标记这些样品，因此我们将其标记为标签。我们进一步采用了多个变压器模型来自动检测安全讨论。通过严格的调查，我们发现物联网安全讨论与传统的安全讨论更加不同，更复杂。当我们从通用数据集“ Opiner”转移知识时，我们证明了跨域数据集上的变压器模型的大量性能损失（多达44％）。因此，我们构建了一个特定于域的IoT安全检测器，F1得分为0.69。我们已经公开了数据集，希望开发人员能够了解有关安全性讨论的更多信息，并且供应商将加强他们对产品安全的担忧。

translated by 谷歌翻译